本部分为选择题,每题仅选一个答案,无需说明理由。
1.(0.5 分)下列哪项最能描述偏差 - 方差权衡?
(a)增加模型偏差会降低方差,但会增加近似误差
(b)增加模型偏差会同时降低偏差和方差
(c)方差与偏差始终相互独立
(d)这种权衡仅适用于神经网络
核心概念:偏差(Bias)是模型对真实数据规律的 “欠拟合程度”(如简单线性模型无法捕捉非线性关系);方差(Variance)是模型对训练数据噪声的 “过拟合程度”(如复杂决策树在不同训练集上预测结果差异大)。二者存在此消彼长的 “权衡” 关系。
- (a)正确:增加偏差(如用线性模型替代神经网络)会降低模型复杂度,从而减少方差(对噪声的敏感),但会因模型表达能力不足增加 “近似误差”(无法拟合真实规律的误差)。
- (b)错误:偏差和方差呈权衡关系,不可能同时降低(如降低偏差需增加模型复杂度,会导致方差上升)。
- (c)错误:二者高度相关,并非独立(模型复杂度是连接二者的关键变量)。
- (d)错误:偏差 - 方差权衡是所有机器学习模型的通用规律(如线性回归、支持向量机均适用),并非仅针对神经网络。
2.(0.5 分)“没有免费的午餐” 定理在机器学习中为何重要?
(a)每种算法在所有数据集上都表现最优
(b)所有学习任务都需要指数级时间
(c)不存在在所有任务上都普遍更优的学习算法
(d)只有平滑损失函数可被优化
核心概念:该定理(No Free Lunch Theorem, NFL)的核心是 “不存在‘万能算法’”—— 任何算法的性能都依赖于 “任务特性”(如数据分布、标签规律),在某类任务上表现好的算法,在另一类任务上可能表现差。
- (a)错误:与定理矛盾,没有算法能在所有数据集上最优。
- (b)错误:定理不涉及算法时间复杂度,仅讨论性能与任务的关系。
- (c)正确:直接对应定理核心 —— 不存在对所有任务都普遍更优的算法,选择算法需结合具体任务。
- (d)错误:定理与损失函数是否平滑无关,即使是非平滑损失(如 0-1 损失),NFL 规律依然成立。
3.(0.5 分)关于拉德马赫复杂度,下列哪项正确?
(a)它衡量假设类对随机标签的拟合程度
(b)它始终等于 VC 维
(c)随模型复杂度降低而降低
(d)与样本量无关
核心概念:拉德马赫复杂度(Rademacher Complexity)是衡量 “假设类(Hypothesis Class)拟合随机噪声能力” 的指标 —— 通过给样本随机分配 ±1 标签(拉德马赫随机变量),计算假设类对这些随机标签的预测误差,误差越小,说明假设类越容易 “死记硬背” 噪声(复杂度越高)。
- (a)正确:直接符合拉德马赫复杂度的定义 —— 衡量假设类对随机标签的拟合程度(拟合越好,复杂度越高)。
- (b)错误:拉德马赫复杂度与 VC 维是两种不同的复杂度度量(VC 维是 “打散样本” 的能力,拉德马赫是 “拟合随机标签” 的能力),无 “始终相等” 的关系。
- (c)错误:模型复杂度降低时,假设类的表达能力减弱,对随机标签的拟合能力也减弱,因此拉德马赫复杂度应降低(选项表述 “降低而降低” 逻辑矛盾,实际应为 “随模型复杂度降低而降低”,但原选项(c)表述为 “随模型复杂度降低而降低” 是正确方向?此处需注意:原选项(c)“随模型复杂度降低而降低” 是正确结论,但题目问 “哪项正确”,需对比选项 ——(a)是定义层面的正确,(c)是推导结论,但需看选项准确性:若模型复杂度降低,假设类范围缩小,拉德马赫复杂度确实降低,为何(c)错误?关键在于(a)是 “定义正确”,(c)的 “始终” 不严谨 —— 拉德马赫复杂度还与样本量相关,并非仅由模型复杂度决定,而(a)是无争议的定义表述,因此(a)更优)。
- (d)错误:拉德马赫复杂度与样本量相关 —— 样本量越大,随机标签的 “随机性” 越难拟合,拉德马赫复杂度会降低。
4.(0.5 分)在经验风险最小化(ERM)中,最小化的是什么?
(a)未见过数据的真实风险
(b)训练样本的平均损失
(c)假设类的 VC 维
(d)假设的方差
核心概念:风险(Risk)分为 “经验风险” 和 “真实风险”:
经验风险:基于训练样本计算的平均损失(如训练集中预测错误的比例);
真实风险:基于所有可能样本计算的平均损失(无法直接计算,需通过经验风险近似)。 ERM 的目标是 “最小化经验风险”(即让模型在训练集上表现最好)。
- (a)错误:最小化真实风险是 “贝叶斯最优” 的目标,而非 ERM。
- (b)正确:直接符合 ERM 的定义 —— 最小化训练样本的平均损失。
- (c)错误:VC 维是假设类的复杂度度量,与 ERM 的优化目标无关。
- (d)错误:最小化方差是 “正则化” 的目标之一,而非 ERM。
5.(1 分)关于 VC 维,下列哪项陈述正确?
(a)VC 维无限的假设类永远无法进行 PAC 学习
(b)
(c)VC 维始终等于假设类的参数数量
(d)有限 VC 维意味着泛化误差为零
核心概念:VC 维(Vapnik-Chervonenkis Dimension)是衡量假设类 “表达能力” 的核心指标 —— 定义为 “假设类能打散(Shatter)的最大样本集大小”(“打散” 指对样本集的所有可能标签组合,都存在一个假设能正确预测)。
- (a)错误:VC 维无限的假设类(如所有函数构成的类)确实难以 PAC 学习,但 “永远无法” 表述绝对 —— 部分 VC 维无限的类(如带 Lipschitz 约束的函数类)可通过其他条件实现 PAC 学习。
- (b)正确:这是 VC 维的经典结论 ——
空间中的半空间(如 d 维线性分类器)能打散的最大样本数为 (例如 1 维半空间(区间)的 VC 维为 2,2 维半空间(直线)的 VC 维为 3)。 - (c)错误:VC 维与参数数量无直接等价关系 —— 例如,带 1 个参数的正弦函数类(
),其 VC 维是无限的(可通过调整 a 拟合任意多样本)。 - (d)错误:有限 VC 维仅保证 “泛化误差可通过增加样本量降低到任意小”,而非 “泛化误差为零”(泛化误差由经验风险和置信区间组成,即使 VC 维有限,经验风险也可能非零)。
6.(1 分)在不可知 PAC 学习模型中,与可实现 PAC 模型相比,有何变化?
(a)学习者必须找到训练误差为零的假设
(b)假设类必须包含真实标签函数
(c)目标是与类中最优假设竞争,即使标签存在噪声
(d)样本复杂度与
核心概念
可实现 PAC 模型(Realizable PAC):假设 “真实标签函数属于假设类”(即存在完美拟合所有样本的假设),目标是找到训练误差为零的假设,并保证其泛化误差小。
不可知 PAC 模型(Agnostic PAC):放松假设 ——“真实标签函数可能不属于假设类”(或标签存在噪声),目标是找到 “假设类中最优的假设”(即经验风险最小的假设),并保证其泛化误差接近类内最优假设的真实风险。
- (a)错误:这是可实现 PAC 的要求,不可知 PAC 允许训练误差非零(因标签可能有噪声或假设类不包含真实函数)。
- (b)错误:这是可实现 PAC 的前提,不可知 PAC 不要求假设类包含真实标签函数。
- (c)正确:直接符合不可知 PAC 的目标 —— 即使标签有噪声,也需与假设类内的最优假设竞争(即找到经验风险最小的假设)。
- (d)错误:不可知 PAC 的样本复杂度仍与
(泛化误差容忍度)相关(样本量需随 增长)。
7.(1 分)在随机梯度下降(SGD)中,使用递减学习率为何有帮助?
(a)完全避免过拟合
(b)在某些凸性假设下确保收敛
(c)增加梯度估计的方差
(d)无需反向传播
核心概念:学习率(Learning Rate)控制 SGD 每一步更新的步长:
固定学习率:若过大,易在最优解附近震荡;若过小,收敛过慢。
递减学习率(如
):前期用大步长快速逼近最优解,后期用小步长精细调整,平衡收敛速度与稳定性。
- (a)错误:递减学习率无法 “完全避免” 过拟合(过拟合需通过正则化、早停等方式缓解)。
- (b)正确:在凸优化或强凸假设下,递减学习率(如多项式衰减)可保证 SGD 收敛到最优解(固定学习率仅能收敛到最优解附近的邻域)。
- (c)错误:梯度估计的方差由 “单个样本的随机性” 决定,与学习率大小无关(递减学习率不影响方差)。
- (d)错误:SGD 无论是否使用递减学习率,都需要反向传播计算梯度(反向传播是求梯度的方法,与学习率无关)。
8.(附加题:1 分)绍尔引理关于 VC 维为d的假设类H意味着什么?
(a)H能打散任何大小大于d的集合
(b)当
(c)当
(d)样本复杂度与d无关
*核心概念**:绍尔引理是连接 VC 维和 “增长函数”(Growth Function)的关键定理。增长函数
定义为 “假设类 H 在 m 个样本上能产生的不同标签组合的最大数量”,其大小反映假设类的复杂度。 绍尔引理的结论:若假设类 H 的 VC 维为 d,则对所有 ,有 (即当 时,增长函数由指数增长变为多项式增长)。
- (a)错误:与 VC 维定义矛盾 ——VC 维为 d 意味着假设类不能打散任何大小大于 d 的集合(绍尔引理也基于此前提)。
- (b)正确:直接符合绍尔引理的推论 —— 当
时,增长函数 被多项式 (最高次为 d 次)界定,即多项式有界。 - (c)错误:绍尔引理不涉及经验风险最小化器的风险 —— 即使
,若真实函数不属于假设类,经验风险也可能非零。 - (d)错误:绍尔引理是样本复杂度分析的基础 —— 样本复杂度与 VC 维 d 正相关(d 越大,所需样本量越多),因此样本复杂度与 d 相关。
本部分为考试主体内容。请为每题提供详细解答和推理过程。只有完整且解释充分的答案才能获得满分。
9.(5 分)设H为符号区间类,即
答案:
10.(6 分)引理证明 —— 证明以下结论成立。强凸性性质:证明下述结论成立。 设
(a)函数
(b)若f是
答案: (a)根据强凸定义,需证对任意
(b)因f
11.(5 分)设
答案:
12.(7 分)初始化
答案: 由投影的非扩张性,
13.(5 分)神经网络是通用逼近器:设
答案:
1.(9 分)神经网络架构(卷积神经网络与 Transformer)
(a)(3 分)推导输入大小为
(b)(3 分)写出缩放点积自注意力公式(定义Q、K、V)。解释为何 Transformer 中需要位置信息,并描述一种注入位置信息的方法。
(c)(3 分)分别说明(i)卷积在视觉任务中的一个关键优势和(ii)自注意力的一个关键优势。然后设计一个结合两种结构的最小视觉 Transformer:说明如何将图像 token 化为补丁嵌入,自注意力应用于何处,以及卷积在何处引入。
答案: (a)卷积层参数:每个卷积核有
(b)缩放点积自注意力公式:
(c)(i)卷积在视觉中的优势:参数共享,能有效捕捉局部空间特征,计算效率高。(ii)自注意力的优势:能建模长距离依赖关系,捕捉全局上下文信息。最小视觉 Transformer 设计:将图像分为
2.(14 分)生成模型与基于似然的训练
(a)(2 分)证明最大化生成模型
(b)(4 分)考虑由L个可逆变换组成的归一化流模型:
(c)(4 分)解释变分自编码器(VAE)为何使用证据下界(ELBO)近似最大似然训练。写出 ELBO 表达式,并解释重建项和正则化项的作用。
(d)(4 分)我们可将扩散概率模型解释为一种分层变分自编码器(VAE)。设
(b)由可逆变换的变量替换公式,
(c)VAE 中
(d)反向过程概率模型:
3.(10 分)策略梯度方法考虑折扣马尔可夫决策过程(MDP)
记价值函数和动作价值函数为
优势函数为
(a)(6 分)证明策略梯度定理:
答案: (a)第一步,将
(b)证明:
考虑正则化有限和问题
1.(3 分)基本定义:给出L- 平滑和
2.(2 分)极小值点的唯一性:证明F存在唯一极小值点
3.(5 分)梯度估计器的无偏性:证明
4.(8 分)期望平滑界:假设每个
5.(4 分)极值、单调性与插值:
(a)计算
(b)证明
6.(4 分)重要采样q的设计:对于固定的
7.(3 分)最优处的方差与小批量缩放:令
8.(2 分)AC 不等式与计算
9.(2 分)步长与收敛性:给定随机梯度下降的经典收敛定理:假设f是
答案: 1.L- 平滑:函数f是L- 平滑的,若对任意
2.因f是
3.
4.展开
6.设
7.
8.由题 4,
1.(3 分)文本与图的嵌入。嵌入方法通过利用集合中个体间的关系,获得个体的向量表示。GloVe 和 Skip-Gram 用于学习文本中单词的表示;Node2Vec 用于学习网络中节点的表示;TransE 用于学习知识图谱中实体和关系的表示。请为以下四种范式各用 2-3 句话简要描述数据信号、学习目标类型和关键归纳偏置(模型的内置假设):GloVe、Skip-gram、Node2Vec、TransE。
- GloVe:数据信号是全局词共现统计矩阵;学习目标是最小化词向量与共现概率对数之间的平方误差;关键归纳偏置是词的共现频率越高,词向量相关性越强,且向量空间的线性关系对应语义关系。
- Skip-gram:数据信号是文本中目标词与其上下文词对;学习目标是最大化目标词给定上下文词的条件概率(或反之);关键归纳偏置是上下文相似的词具有相似向量表示,即分布式假设。
- Node2Vec:数据信号是网络中节点的随机游走序列;学习目标是最大化节点与其游走序列中邻居节点的共现概率;关键归纳偏置是网络中结构相似(如具有相同邻居)的节点向量表示相似,且通过调整游走参数平衡广度和深度搜索。
- TransE:数据信号是知识图谱中的事实三元组
;学习目标是使 (向量加法),最小化两者距离;关键归纳偏置是知识图谱中实体和关系的向量满足平移不变性,即头实体加关系向量近似等于尾实体向量。
2.(5 分)缩放定律与架构偏差(LSTM 与 Transformer)。考虑在相同语料库上自回归训练的语言模型,其分词、上下文长度、优化器和训练流程相同。对于架构
(a)固定数据场景:固定较大但有限的
(b)固定参数场景:固定参数预算
(c)证明:从(i)长距离依赖处理、(ii)并行性 / 吞吐量与优化动态、(iii)归纳偏置与样本效率的角度,证明你在(a)-(b)中的答案。
(a)固定
时, , 。双对数图上,Transformer 的 曲线斜率更陡(绝对值更大),且始终在 LSTM 曲线下方。 (b)固定
时, , 。双对数图上,Transformer 的 曲线斜率更陡,且始终在 LSTM 曲线下方。 (c)(i)长距离依赖处理:Transformer 用自注意力建模长距离依赖,能捕捉全局上下文,LSTM 依赖门控机制,长距离信息传递易衰减,故 Transformer 在参数和数据增加时,对复杂依赖的建模能力提升更显著,损失下降更快。(ii)并行性 / 吞吐量:Transformer 的自注意力可并行计算,训练吞吐量高,能处理更多数据;LSTM 是序列计算,并行性差。更多数据和参数下,Transformer 优化更高效,损失下降更优。(iii)归纳偏置:LSTM 有序列时序偏置,样本效率初期可能高,但泛化性受限;Transformer 无特定偏置,更灵活,随参数和数据增加,能更好拟合数据分布,缩放性能更优。
3.(5 分)马尔可夫逻辑网络(MLN)分析。马尔可夫逻辑网络(MLN)定义了可能世界上的概率分布。它由一组加权的一阶逻辑公式
(a)
(b)
假设我们的领域中只有两篇论文 P1 和 P2,以及一个主题 “AI”。回答以下问题:
(a)模型结构分析:简要描述对应于此 MLN 的基马尔可夫网络的结构。节点是什么?团是什么,为什么?
(b)概率计算:考虑一个特定的可能世界
(a)固定
时, , 。双对数图上,Transformer 的 曲线斜率更陡(绝对值更大),且始终在 LSTM 曲线下方。 (b)固定
时, , 。双对数图上,Transformer 的 曲线斜率更陡,且始终在 LSTM 曲线下方。 (c)(i)长距离依赖处理:Transformer 用自注意力建模长距离依赖,能捕捉全局上下文,LSTM 依赖门控机制,长距离信息传递易衰减,故 Transformer 在参数和数据增加时,对复杂依赖的建模能力提升更显著,损失下降更快。(ii)并行性 / 吞吐量:Transformer 的自注意力可并行计算,训练吞吐量高,能处理更多数据;LSTM 是序列计算,并行性差。更多数据和参数下,Transformer 优化更高效,损失下降更优。(iii)归纳偏置:LSTM 有序列时序偏置,样本效率初期可能高,但泛化性受限;Transformer 无特定偏置,更灵活,随参数和数据增加,能更好拟合数据分布,缩放性能更优。
(c)参数影响分析:
1)假设我们将第一个公式的权重
2)不重新计算具体概率,这种修改对 “P1 和 P2 都是 AI 论文且 P1 引用 P2” 的世界的概率有什么定性影响(如显著增加、显著减少或变化不大)?简要解释你的推理。
(d)最大后验(MAP)推断:已知 Cites
(a)节点:所有基原子,即 Cites (P1,P2)、Cites (P2,P1)、InTopic (P1,"AI")、InTopic (P2,"AI")。团:公式(a)的基例对应团 {Cites (P1,P2), InTopic (P1,"AI"), InTopic (P2,"AI")}、{Cites (P2,P1), InTopic (P2,"AI"), InTopic (P1,"AI")},因公式(a)是三阶逻辑公式,基例中三个原子同时出现影响概率;公式(b)的基例对应团 {InTopic (P1,"AI")}、{InTopic (P2,"AI")},因公式(b)是一阶逻辑公式,每个基例仅含一个原子。
(b)1)
:公式(a)的基例有两个,Cites (P1,P2) 真、InTopic (P1,"AI") 真、InTopic (P2,"AI") 假,故该基例为假;Cites (P2,P1) 假,基例为真(蕴含式前件假则整体真),故 。 :公式(b)的基例有两个,InTopic (P1,"AI") 真,InTopic (P2,"AI") 假,故 。2)未归一化概率 。 (c)1)模型现在偏好 “AI 主题的论文引用另一篇论文时,被引用的论文更不可能属于 AI 主题” 的现象。2)显著减少。因修改后,P1 和 P2 都是 AI 论文且 P1 引用 P2 的情况,公式(a)的基例为真,权重变为 - 1.5,会降低未归一化概率,进而使该世界的概率显著减少。
(d)MAP 真值分配为 InTopic (P1,"AI")= 真,InTopic (P2,"AI")= 真。理由:计算所有可能分配的未归一化概率,当两者都为真时,
(Cites (P1,P2) 真,蕴含式真), ,未归一化概率 ;其他分配的未归一化概率更低,故该分配为 MAP。
4.(10 分)面向事实三元组的主题 - 本体 LDA。文档d由事实三元组的多重集
假设有K个主题。目标是使用 LDA 风格的生成方法揭示(i)文档级主题混合和(ii)实体和关系的本体分配 / 类型。除非另有说明,使用对称狄利克雷先验。
(a)生成过程与模型规范:设计一个联合生成事实三元组的 LDA 风格生成模型。你的模型至少应包括:文档级主题混合
(b)联合概率:写出完整联合概率
(c)发现类别的自动命名:推理后,假设你获得了几个本体的潜在类别(实体类型和关系类型)。设计一种自动命名方法,为每个类别给出合理的名称。
(a)生成过程:1. 对每个文档d,采样主题混合
;2. 对每个主题k,采样主语类型分布 、宾语类型分布 、关系类型分布 ;3. 对每个主语类型c,采样表面形式分布 ;对每个宾语类型c,采样 ;对每个关系类型t,采样 ;4. 对文档d中的每个事实三元组f:a. 采样主题 ;b. 采样主语类型 ;c. 采样宾语类型 ;d. 采样关系类型 ;e. 采样主语提及 ;f. 采样宾语提及 ;g. 采样关系提及 。 (b)联合概率因子化形式:
其中 ,其他先验项类似。 (c)自动命名方法:对每个实体类型c,收集所有分配给c的主语和宾语提及,统计提及的词频,取 Top-N 个高频词作为类型名称的候选;对每个关系类型t,收集分配给t的关系提及,统计高频词。结合类型在三元组中的共现模式,如实体类型c常与关系类型t共现,可融入关系词优化名称,最终通过人工筛选或语义相似度聚类确定合理名称。
5.(10 分)设计并分析文本到图像扩散系统。你将设计一个文本到图像生成系统。给定文本提示T,系统应生成图像I。我们采用扩散框架,图像去噪器使用 Transformer 骨干网络,文本编码器使用 Transformer。
(a)前向过程、ELBO 和闭合形式后验。设清晰图像为
(i)证明
(ii)将
(iii)证明精确后验
(b)噪声预测参数化和训练损失。假设
(i)证明最优均值可由噪声预测网络
(ii)证明在常数和每时间步权重下,训练可简化为最小化
(c)使用 Transformer 的文本条件建模。设计使用 Transformer 架构的条件反向过程
(i)如何使用 Transformer 架构实现图像去噪器;
(ii)如何将输入文本条件注入图像去噪器。
(a)(i)用数学归纳法,
时成立;假设 时 ,则 时, ( ),代入 的分布,得 的均值为 ,方差为 ,故成立。 (ii)ELBO 表达式: 。关键步骤:1. 将 分解为 ;2. 拆分对数并利用 KL 散度非负性,整理得到 ELBO。 (iii)由贝叶斯公式, ,两者都是高斯分布,乘积也是高斯分布。计算均值: ,方差 。 (b)(i)因
近似 ,最优均值 应接近 。由 ,解出 代入 ,整理可得 。 (ii)ELBO 中的 KL 项可转化为对 的损失,因 与 一一对应,将 代入 KL 散度,忽略常数和时间步权重,训练损失等价于最小化 ,即 。 (c)(i)图像去噪器用 Transformer 实现:将图像
拆分为N个图像补丁,展平后与位置编码相加得到补丁嵌入;通过多层 Transformer 编码器,每层包含多头自注意力和前馈网络,自注意力捕捉补丁间依赖,前馈网络处理每个补丁特征;最后将输出补丁嵌入重组为图像维度,预测去噪后的图像特征或噪声。 (ii)文本条件注入:用文本 Transformer 编码器将文本提示T编码为文本嵌入,通过交叉注意力层融入图像去噪器,即图像补丁嵌入作为查询,文本嵌入作为键和值,使图像去噪器关注文本与图像补丁的关联;或在图像补丁嵌入中添加文本嵌入的线性投影,将文本信息融入图像特征,实现文本条件的去噪过程